#KV 캐시 압축

MarkTechPost • 108일 전

IMP 9

MIT·NVIDIA, 트라이어텐션 제안…KV 캐시 10배 절감

MIT, NVIDIA, 저장대학 연구진이 대규모 언어 모델(LLM)의 메모리 병목 현상을 해결하기 위해 'TriAttention(트라이어텐션)'이라는 새로운 KV 캐시 압축 기법을 제안했습니다. 이 방법은 기존 방식들의 한계를 극복하여, 수학 추론 벤치마크에서 Full Attention과 동등한 정확도를 유지하면서도 처리량(Throughput)은 2.5배 높이거나 KV 메모리는 최대 10.7배 줄일 수 있습니다.

KV 캐시 압축 대규모 언어 모델 GPU 메모리 최적화